VERGEET DE GIDS NIET 


Het verborgen web ontsloten 


Diepwebduiken 


Gewone zoekmachines halen slechts een fractie tevoor- 
schijn van de beschikbare informatie op het web, tenzij 
je ze extra slim gebruikt. Bovendien zijn er uitstekende 
indexen en speciale zoekmachines, waarmee we schijn- 
baar verborgen informatie alsnog aan de oppervlakte 
krijgen. A _DIRK SCHOOFS 


WAT DOEN WE? 


WAARMEE? 


HOELANG? 


B. 


LIJKHEID? 


ie zich ernstig in een bepaalde materie ver- 

diept, ondervindt al gauw dat hij niet zomaar 
snel alle internetwijsheid tevoorschijn kan googelen. 
De wijdverbreide veronderstelling dat zoekmachines 
niet verder geraken dan 30 tot 40 procent van de 
bestaande websites is zelfs nog te optimistisch. Vol- 
gens BrightPlanet, een bedrijf gespecialiseerd in zoek- 
technologie, is het braakliggend terrein voor zoekma- 
chines veel groter dan we ooït konden vermoeden. Zo’n 
2 miljard pagina’s zou je kunnen bereiken met de 
traditionele zoekmachines (the surface web), maar er 
zijn 500 keer meer pagina’s die zich niet rechtstreeks 
laten benaderen door de zoekmachines. Dat wil echter 
niet zeggen dat we ze niet kunnen vinden. 


Pi 


Hoe diep is het web? 


Zoekmachines zoals Google en Yahoo! kunnen hun ding doen omdat de 
auteurs zelf hun werk aanmelden. Bovendien draaien er op hun servers 
zogenaamde crawlers of spiders, die hyperlink na hyperlink volgen. 
Hierdoor zijn de zoekmachines in staat om ook zelf webpagina's op te 
slaan in hun indexen. Het duurt 2 tot 6 maanden voor de conventio- 
nele zoekmachines nieuwkomers in hun indexen opnemen, en hiermee 
zijn we bij een eerste oorzaak van het onzichtbare web. 
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Discover over 70,000+ searchable databases and specialty search engines. 
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Summary: Bargain Basement Children's Stencils Country Stencils Disney Fish Stencils Floral 
Stencils Foliage Stencils Fruit Stencils Garden … Stencils Holiday Inspirational Stencils Ivy Lettering 
Stencils Mural Stencils Nautical Stencils Neo Classical Stencils Southwest Stencils … matches 
Search by Key Word Orchid Stencil 7.99 Palm Tree Stencil 38.00 Bamboo Stencil … Mural Stencil Kit 
71.91 for 9 stencil designs All Things Bright and Beautiful Complete Mural … Stencil Kit 130.00 for 8 
stencil designs Peaceful Valley Complete Mural Stencil Kit 120.00 
http://stencilease.com/db/index.clm?catagory=mural 

Rel e:un _ Size: 24k Harvested: Fri Mar 05 12:51:45 CST 2004 


2. eat2eat- Bangkok … 
Summary: is {ree to the use 


Engine 
Discover the meaning and 


origin of your family name. 
www. FamilyEducation.com 


LL SEARCH RESERVE FREQUENT DINING Lear how auicklv vou can Cluster Your Resul! 


Eerst openen we de rubriek Home & Garden en daarna gebruiken we de 
zoekterm ‘Orchid’. 
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OP THE INVISIBLE WEB! 


Onder het onzichtbare of diepe web verstaan we informatie die wel 
degelijk bereikbaar is via het internet, maar die niet ontsloten wordt 
door de grote zoekmachines. Hier zijn tal van redenen voor. De crawl- 
ers van zoekmachines herkennen uitsluitend statische webpagina's. 
Dynamische pagina’s, die hun actuele informatie genereren op vraag 
van de bezoeker, blijven verborgen voor de klassieke zoekmachine. Het 
hoofdbestanddeel van het onzichtbare web bestaat echter uit data- 
bases waar je pas toegang tot krijgt nadat je een gebruikersnaam en 
een wachtwoord hebt ingegeven. Ook heel wat pagina’s van kranten en 
vakbladen zijn in het begin wel publiek toegankelijk, maar wil je ze 
enkele maanden later opnieuw lezen, dan krijg je plots geen toegang 
meer, terwijl die pagina’s toch nog op de servers staan. 

Hoe kan je toch informatie vinden op het onzichtbare web? Er zijn drie 
methoden: je hebt de speciale directories, de gespecialiseerde zoekma- 
chines, of je kan alsnog de klassieke zoekmachines gebruiken als een 
tussenstap, om zo de databases te vinden die toegang geven tot het 
diepe web. 


Speciale directories 


CompletePlanet www.completeplanet.com is een site van BrightPlanet (zie 
afbeelding 1). De directory is in het Engels opgesteld. Hier spreek je 
70.000 databanken en 11.000 gerelateerde zoekmachines aan. Ofwel 
zoek je via trefwoorden, ofwel gebruik je de overzichtelijke directory- 
structuur met 42 onderwerpen en honderden subrubrieken. Dit is een 
uitstekende bron voor onderzoekers en studenten, voor wie de tradi- 


ONZE MARCEL ZOEKT WAT INFORMATIE 


« Education (51) e Pharmacy (1863) New: 

« Emergency Services (527) e Procedures and Therapies (615) New: 

« Environmental Health (219) e Professional Supplies and Services@ 
e First Aid (24) e Public Health and Safety (2464) 

e Fitness (273) New: e Reference (81) 


« General Health (105) e Reproductive Health (771) New: 


« Health Administration (51) e Senior Health (97)New: 

e Health Care (291) e Sexual Health (20) 

e« Health Sciences (34) « Teen Health (56) 

« Hospitals and Medical Centers (44) e Traditional Medicine (152) 

« Hygiene (17) e Travel Health and Medicine (25) 
e Institutes (29) e Web Directories (31) 


« Job and Employment Resources@ « Weight Issues (277) 


Alleen in de rubriek Health zitten er nog eens 31 web directories. 


ei INFOMINE 


Scholarty Internet Resource Collections 


Search for: orchid GO 
Advanced Sasech | Sesech Tips | Vehat's Now RSS CY 


In Infomine staat de informatie gegroepeerd per vak. 


tionele zoekmachines niet volstaan. Het nut van de ingebouwde zoek- 
machine op dit adres lijkt ons overroepen, tenzij je eerst naar de 
juiste subrubriek navigeert en pas dan het trefwoord ingeeft. Een 
andere site is Yahoo! Directory Surf er naar toe en 
klik door naar de juiste rubriek. Vervolgens krijg je per onderwerp een 
alfabetische categorielijst te zien. In iedere categorie vind je de rubriek 
Weg Directories terug, die je leidt naar gegevensbanken die hun inhoud 
vaak verstoppen voor zoekmachines (zie afbeelding 2). 

BUBL Information Service is een uitstekende catalogus 
voor alle takken in het academisch onderwijs. Dit is een typische deep 
web-index van zorgvuldig geselecteerde bronnen. Ofwel gebruik je de 
geïntegreerde zoekmachine of de alfabetische index, ofwel raadpleeg 
je BUBL thematisch. De catalogus is gebaseerd op het Dewey Decimaal 
Classificatie-systeem dat in bibliotheken gebruikt wordt. Ook Infomine 
Scholarly Internet Resource Collections is een erg 
degelijke wetenschappelijke directory die toegang geeft tot meer dan 
20.000 databanken, elektronische tijdschriften en websites van acade- 
misch niveau (zie afbeelding 3). In de zoekopties kan je de opdracht 
beperken volgens veldcategorie (auteur, titel, volledige tekst, …) of 
volgens onderwerp. Ook hier zijn de zoekresultaten meestal van uitste- 
kende kwaliteit. De organisatie gaat prat op haar “Expert-selected| 
esourced”’, ofwel het feit dat hun bronnen door experts werden gese- 
lecteerd. In het zoekresultaat lees je of de selectie automatisch tot 
stand kwam, of dat ze werd aangebracht door een bibliothecaris. 


Gespecialiseerde zoekmachines 


De speciale diepwebzoekmachines brengen in de meeste gevallen veel 
minder resultaten tevoorschijn dan de klassieke search engines. Ze 
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Je kan de zoekresultaten nog thematisch verfijnen. 


moeten het meer hebben van de kwaliteit van hun resultaten dan van 
de kwantiteit. 

IncyWincy is een veelzijdige zoekmachine, speciaal 
ontworpen voor het deep web (zie afbeelding 4). IncyWincy maakt 
gebruik van 150 miljoen geïndexeerde en doorzoekbare webpagina's en 
zoekmachines. IncyWincy heeft een eigen beeldenzoeker en ook een 
thematische directory. 

GoshMe zit nog steeds ín een bêtastadium. Gebruikers 
moeten zich registreren. Hier maak je simultaan gebruik van 2.520 
deep web-zoekmachines en databanken. De resultaten worden opge- 
deeld in gespecialiseerde of algemene zoekmachines. Bovendien krijg 
je bij elke website enige toelichting over de betrokken organisatie of 
zoekmachine. Wie medische databanken wil aanspreken, moet Mamma 
health onthouden. Dit is een typische ‘deep web 
searcher’ die tegelijk 8 medische gegevensbanken naslaat en als resul- 
taat een lijst van artikels presenteert. 


De klassieke zoekmachine als tussenstap 


Zweer je toch bij de gewone zoekmachines, dan kan je ook die gebrui- 
ken om tot bij de poorten van het deep web te komen. Gebruik in dat 
geval enkele toevoegingen. Vat het onderwerp waarover je informatie 
zoekt in een paar termen samen en voeg daar woorden als ‘database’, 
‘data’, ‘dataset’, ‘archive’, ‘bibliography’, ‘index’, ‘register’ of ‘statistics’ 
aan toe. Aanhalingstekens geven aan dat de woorden als een vaste 
combinatie worden gezocht. Wie dus met ‘aviation accidents database’ 
naar informatie over vliegtuigongevallen zoekt, komt inderdaad tot bij 
een database die alle fiches van vliegtuigongevallen bewaart (zie af- 
beelding 5). 

Ook de toevoegingen ‘intitle’ en “nanchor’ brengen je naar de gege- 
vensbanken. Wil je bijvoorbeeld alle titels zien van webpagina's die de 
naam Tertullianus bevatten, dan tik je “intitle:tertullianus’ (zonder de 
aanhalingstekens). Met “inanchor’ laat je Google alleen zoeken in de 
ankerverwijzingen van een html-pagina. Op die manier vind je koppe- 
lingen in webpagina's. 


ACCIDENT DATABASE _ 


The aviation accident database includes; 
« All civil and commercial aviation accidents of scheduled and non-scheduled 
passenger airliners worldwide, which resulted in a fatality (including all U.S. 
Part 121 and Part 135 fatal accidents) 
* All cargo, positioning, ferry and test flight fatal accidents. 
= All military transport accidents with 10 or more fatalities. 


* All commercial and military helicopter accidents with greater than 10 


» All civil and military airship accidents involving fatalities, 


Note: Midair collisions list the number of people aboard and fatalities for both aircraft, 
r Database Format 
Date: Date of accident, In the format - January O1, 1995 


Time: Local time, In 24 hr. format unless otherwise specified 
Airline/Op: Airline or operator of the aircraft 


Route: Complete or partial route flown prior to the accident 
AC Type: Aircraft type 


Wie eenmaal de binnenweggetjes naar het deep web kent, verhoogt zijn 
zoekpotentieel enorm. Net zoals de weg naar uw binnenzak, richting 
portefeuille, het hart van deze gids alweer sneller doet slaan. « 
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Verstandig zoeken leidt ons 
Flight #: Flight number assigned by the aircraft operator 5 naar de gegevensbank van 
vliegtuigongevallen. 


